標簽【reinforcement learning】

花費 5 ms

本文介紹增強學習和自適應控制。在監督學習中，算法是要輸出盡量模仿訓練集中的標簽 y，標簽給每個輸入 x 一個清楚的正確答案。與此不同，對於許多序列決策和控制問題，就很難對算法給出這種明確的監督。例 ...

選自《Reinforcement Learning: An Introduction》, version 2, 2016, Chapter2 https://webdocs.cs.ualberta. ...